常用网站介绍

您所在的位置：网站首页 › sound 和voice 和noice区别 › 常用网站介绍

常用网站介绍

#常用网站介绍| 来源: 网络整理| 查看: 265

蛋白数据库几乎是生物领域研究人员不可或缺的工具之一，UniProt数据库作为资源最广、信息最丰富的蛋白数据库，是查询蛋白功能的首选。UniProt功能全面，小编将通过上下两期内容来详细介绍其使用方法。

进入官网（https://www.uniprot.org/），可以看到数据库页面分为上下两部分，上半部分为搜索框（图1），下半部分则是数据库和分析工具，也是本期主要介绍的内容。

一、UniProt数据库构成

目前，UniProt主要由以下子库构成：

1. UniProt Knowledgebase（UniProtKB）

该数据库由Swiss-Prot和TrEMBL两个数据库构成。Swiss-Prot数据库代表着高质量、人工注释的、非冗余的数据集，其注释数据的来源于文献研究或校验过（Reviewed）的分析结果。TrEMBL数据库，代表蛋白未经校验（Unreviewed），通过机器对序列进行自行翻译和注释。

2. Proteomes

该数据库收录已经完成全基因组测序的物种、序列翻译已有注释的蛋白质信息，信息相对全面详细。

3. UniRef

聚类序列隐藏冗余序列以缩减数据库大小，可加快搜索的速度。包含UniRef100、UniRef90以及UniRef50三个数据集。UniRef100数据集是将来自某一生物体的具有11个或更多残基的相同序列和子片段合并到单个UniRef条目中，显示具有代表性的蛋白质序列。UniRef90则是对具有11个或更多残基的UniRef100序列进行聚类构建的，每个聚类由与聚类的种子序列（即最长序列）至少具有90%序列一致性和80%重叠的序列组成。UniRef50是通过将UniRef90种子序列进行聚类而构建的，这些序列至少与集群中最长的序列具有50%序列一致性和80%的重叠。UniRef90和UniRef50分别缩减了大约58%和79%的数据库大小，提供了显着更快的序列相似性搜索。

4. UniParc

非常全面的非冗余数据库，包含了世界上大多数公开的蛋白质序列。

数据库关系如下：

通过EMBL，GenBank，DDBJ等公共数据库得到原始数据，处理后存入UniParc的非冗余蛋白质序列数据库。UniParc再分别给UniProtKB，Proteomes，UniRef提供可靠的数据集。

二、辅助数据

提供数据支撑和不同索引方式，也可以在搜索框中直接选择。

三、分析工具

可进行BLAST、多序列比对，不同数据库ID查询和多肽搜索等。

四、UniProt数据

下载数据或技术文档，通过编程方式访问数据库和上传数据。

五、搜索界面

以“TP53”为例，输入搜索框后出现如下界面，可通过左边过滤选项面板进一步筛选需要的蛋白。

过滤选项面板

1、Status：用于筛选经校验或未经校验的蛋白。Reviewed：存储在Swiss-Prot数据库中经过验证的蛋白数据，Unreviewed：存储在TrEMBL数据库中没有经过验证的蛋白数据。

2、Popular organisms：用于筛选物种。

3、Taxonomy：可通过蛋白的名称、功能、细胞内定位、结构等蛋白特征筛选目的蛋白。

4、Group by：可通过选择蛋白特征、关键词、基因本体论（GO）或酶分类将搜索界面的目的蛋白分类进而筛选目的蛋白。

5、Proteins with：根据蛋白的序列特征以及是否有3D结构图像筛选目的蛋白。

6、Protein existence：证明目的蛋白存在的证据类型，包括蛋白质水平的实验证据、转录水平的实验证据、从同源性推断的蛋白质、预测的蛋白质和不确定的蛋白质。

7、Annotation score：即注释分数，分数越高，注释内容越全面可靠。

8、Sequence length：即序列长度，可根据目的蛋白的长度缩小筛选范围。

本期内容主要介绍了UniProt的主界面和搜索界面，下期将详细介绍目的蛋白界面的内容，感兴趣的小伙伴可以留意一下哦~

汉恒专营工具病毒十余载，如有基因调控相关技术问题，欢迎随时咨询！

【本文地址】

常用网站介绍

常用网站介绍

今日新闻

推荐新闻